查看原文
其他

喜报|我校音乐人工智能学生成果入选国际顶会SIGGRAPH


近期,计算机图形图像研究领域国际顶会,被称为计算机图形图像领域“奥斯卡”的SIGGRAPH公布了录用结果。我校音乐人工智能与音乐信息科技专业博士生金奕同、丘治平,硕士生石义(导师均为俞峰教授、戴琼海教授)的论文Audio Matters Too! Enhancing Markerless Motion Capture with Audio Signals for String Performance Capture被会议接收。SIGGRAPH(ACM Special Interest Group on Computer Graphics)是美国计算机协会组织的计算机图形学最顶级的年度会议,是中国计算机学会推荐国际学术会议A类会议,是业内公认的影响最广、规模最大、最权威的,集科学、艺术、商业于一身的高水平学术研讨会。此外,该论文还被接收为SIGGRAPH的Journal Track文章,将发表在ACM Transactions on Graphics期刊。该期刊属中国科学院SCI期刊分区1区期刊、JCR分区Q1期刊、中国计算机学会推荐国际学术期刊A类期刊,是计算机图形领域国际顶级期刊。这一成果再次表明我校音乐人工智能方向的研究成果获得了国际认可,取得了国际领先水平。


论文首页





论文简介




乐器演奏是人类精细动作与乐器复杂交互的综合呈现,精细化地捕捉演奏动作及乐器交互对AIGC动作生成、演奏教学和动作分析等具有重要意义。相较于钢琴、铜管等固定按键乐器,弦乐演奏具有更大的自由度和更复杂的遮挡关系,手指的细微偏移将导致音乐的巨大差异,这使得弦乐演奏的精细动作捕捉更具挑战性。


一方面,虽然基于传感器或光学标记的动捕系统可以实现高精度动捕,但这需在演奏者身上部署传感器或粘贴光学标记点,这样不仅会导致采集流程复杂,而且会干扰演奏动作,更为重要的是,这仍无法精确“捕捉”手指与琴弦的接触。


  光学动捕+惯性手套 演奏捕方案:对演奏者干扰严重

现有的演奏动作数据: 缺失手指部细粒度动作


另一方面,虽然基于深度学习的无标记视觉动捕方法能够取得不错的效果,但即便使用最先进方法进行演奏动捕,也会因为缺少对于人和乐器交互的理解与约束,导致捕捉精度低,动作(尤其是手部)与乐器的交互不够准确和自然。综上,现有动作捕捉技术对于捕捉乐器演奏的精妙动作仍存在巨大提升空间。


该工作在保证“无标记”这一重要前提下,通过引入音频信号实现了手指与琴弦复杂交互的精确分析与建模,并最终结合视频信号实现了全身演奏动作的精细化捕捉能力,在复杂手部动作和手指-琴弦接触的捕捉方面实现了突破。


弦乐表演数据集(SPD):该数据集采用音频引导的多模态框架,提高了弦乐表演无标记动作捕捉的准确度


由于现有的乐器演奏相关数据集在规模、视角个数、标注粒度等方面存在显著缺陷,因此,该工作首先建立了弦乐表演数据集(SPD),其涵盖大提琴和小提琴的演奏数据,共计120个片段,各片段包含演奏音频和多达23个不同视角的视频,总时长超过3小时。此外,为获取精准的细粒度3D关键点标注(包含躯干、双手、乐器和琴弓),本工作提出了音频引导的无标记多模态运动捕捉框架,其结合从音频信号中推断出的手指-琴弦接触位置,以辅助手部精细动作的捕捉,所获得的动作捕捉结果优于目前最先进的基于纯视觉模态的算法。SPD 是第一个用于乐器演奏的、多模态的、大规模的,以及涵盖了手部动作细节的数据集。


框架流程:基于多视角视频得到初步捕捉结果,同时基于音频提取音高信息并结合音高-指法模型得到理论触弦位置,最终以理论触弦位置作为约束,通过逆向动力学方法获得进一步优化多视角视频的动作捕捉结果。


该工作的贡献除了对弦乐演奏分析任务以及弦乐教学方面的支持外,也为可用于虚拟音乐会、影视动画领域中的演奏动作生成任务提供了重要的数据基础。此外,该工作证实了通过音频辅助视觉动作捕捉的可行性和有效性,该范式可扩展至更广泛的涉及音频-动作关联性的场景中,有助于动作捕捉任务在一定程度上突破视觉信息中由于遮挡或接触所带来的限制。


大提琴演奏手部特写效果展示

大提琴演奏整体特写效果展示


小提琴演奏手部特写效果展示

小提琴演奏整体效果展示

小提琴演奏手部特写效果对比,该方法在还原手部姿态细节及发音手指与琴弦的交互方面效果突出


整体效果展示(含音频)


论文链接


https://arxiv.org/abs/2405.04963



完整成果展示







会议简介



SIGGRAPH (ACM Special Interest Group on Computer Graphics)是美国计算机协会组织的计算机图形学最顶级的年度会议。SIGGRAPH属中国计算机学会推荐国际学术会议A类会议,也是全世界的图形学者公认的最高端的会议,代表了计算机图形学的最高水平,素有计算机图形图像研究领域“奥斯卡”之称。SIGGRAPH 每年都聚集了大量来自世界各地的学术界、工业界和艺术界的顶级专家,提供了一个展示最新研究成果、探讨前沿技术和建立合作关系的绝佳平台。SIGGRAPH是世界上影响最广、规模最大,同时也是最权威的一个集科学、艺术、商业于一身的学术研讨会,每年有上万名相关领域从业者和上百家企业参加,不乏知名企业如NVIDIA、 Adobe、SONY、Meta等。2023年,NVIDIA创始人、首席执行官黄仁勋在SIGGRAPH2023上发布全新GH200芯片及多项最新研究突破。


该工作得到了审稿委员会的一致认可,被进一步入选Journal Track,还将同时发表在ACM Transactions on Graphics期刊上。ACM Transactions on Graphics属中国科学院SCI期刊分区1区期刊、JCR分区Q1期刊、中国计算机学会推荐国际学术期刊A类期刊,是计算机图形领域国际顶级期刊。




共同第一作者:金奕同

金奕同,音乐人工智能与音乐信息科技系博士三年级学生,科技方向师从清华大学戴琼海院士,音乐方向师从中央音乐学院院长俞峰教授。主要研究方向为:音乐表演的跨模态研究、音乐信息检索等。



共同第一作者:丘治平

丘治平,音乐人工智能与音乐信息科技系博士二年级学生,科技方向师从清华大学戴琼海院士,音乐方向师从中央音乐学院院长俞峰教授。主要研究方向为:音乐表演的跨模态研究、音乐信息检索等。



第二作者:石义

石义,音乐人工智能与音乐信息科技系硕士二年级学生,科技方向师从清华大学戴琼海院士,音乐方向师从中央音乐学院院长俞峰教授。主要研究方向为:音乐表演的跨模态研究、音乐信息检索等。




导师


俞峰,中国文联党组成员、副主席、书记处书记,中央音乐学院校长、教授、博导,中国音协指挥学会会长,全国高校美育教育指导委员会主任。



戴琼海,国务院参事,中国工程院院士,清华大学教授、博导,信息学院院长,中国人工智能学会理事长。




特别鸣谢


中央音乐学院 音乐人工智能与音乐信息科技系主任、教授 李小兵

中央音乐学院 管弦系副教授 王崇武

清华大学 信息国研中心副研究员 于涛


清华大学 信息国研中心灵境智能技术交叉创新群体博士后 孙双鹏

清华大学 信息国研中心灵境智能技术交叉创新群体博士后 赵佳晨

北京未澜科技有限公司 算法工程师 梁正昊

中央音乐学院 提琴制作研究中心讲师 潘东昊

中央音乐学院 2017级管弦系本科生 王兴鸿

中央音乐学院 2022级管弦系本科生 黄子诣

中央音乐学院 2022级管弦系硕士研究生 丁昱童

中央音乐学院 2023级管弦系硕士研究生 姚世浩

中央音乐学院 2022级音乐人工智能与音乐信息科技系博士研究生 王源

中央音乐学院 2020级音乐人工智能与音乐信息科技系博士研究生 周昊天

中央音乐学院 2022级音乐人工智能与音乐信息科技系博士研究生 许玥童晖



本研究受到国家重点研发计划、国家自然科学基金、国家社科基金、国家文化和旅游科技创新工程项目、北京市光场共性技术平台、北京高精尖学科建设项目、清华-咪咕智能光场与交互联合研究中心、清华大学国强研究院等项目支持。















供稿:音乐人工智能与音乐信息科技系

设计:谢林萱

责任编辑:六六















近期发布

以音乐之美辉映精神之光|党委书记于红梅主讲“乐咏中华”音乐党课进敦煌

第六届5.23音乐节系列活动——沉浸式党课《您好 焦裕禄》在我校成功举办

当见山高月更阔——“央音”马拉松毕业推介音乐会搭建就业平台


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存